Optimización post-entrenamiento de LLMs para decisiones con mínimo arrepentimiento Mejora la toma de decisiones de los LLMs con Iterative RMFT: un método que minimiza el arrepentimiento y optimiza el equilibrio exploración-explotación. 2026-06-01 · 2 min